当前位置: 开发笔记 > 编程语言 > 正文

NeurIPS2022|清华提出首个退化可感知的展开式Transformer

作者：-林之涵_396 | 来源：互联网 | 2023-07-29 19:23

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达作者：phantom|已授权转载（源：知乎&

点击下方卡片&＃xff0c;关注“CVer”公众号

AI/CV重磅干货&＃xff0c;第一时间送达

作者&＃xff1a;phantom | 已授权转载&＃xff08;源&＃xff1a;知乎&＃xff09;编辑&＃xff1a;CVer

https://zhuanlan.zhihu.com/p/567999703

本文介绍我们 NeurIPS 2022 关于 Spectral Compressive Imaging &＃xff08;SCI&＃xff09;重建的工作&＃xff1a;

《Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging》

文章&＃xff1a;https://arxiv.org/abs/2205.10102

代码&＃xff08;已开源&＃xff09;&＃xff1a;

https://github.com/caiyuanhao1998/MST

这个github仓库是一个针对 Snapshot Compressive Imaging 重建的工具包&＃xff0c;集成了超过12种深度学习算法。我们之前的工作如 MST, CST, MST&＃43;&＃43;, HDNet 也都在这个github仓库中开源。本文也是我们做的 Transformer in SCI 系列的第三个工作。

1. 简介

单曝光快照压缩成像&＃xff08;Snapshot Compressive Imaging&＃xff0c;SCI&＃xff09;的任务是将一个三维的数据立方块如视频&＃xff08;H×W×T&＃xff09;或高光谱图像&＃xff08;H×W×λ&＃xff09;通过预先设计好的光学系统压缩成一个二维的快照估计图&＃xff08;H×W&＃xff09;从而大幅度地降低数据存储和传输的开销。常见的单曝光快照压缩成像系统有 Coded Aperture Snapshot Spectral Compressive Imaging &＃xff08;CASSI&＃xff09;&＃xff0c;如下图所示

图1 单曝光快照压缩成像光学系统

那么在 SCI 中一个至关重要的问题就是如何从被压缩过后的二维快照估计图重建出原始的三维数据&＃xff0c;当前主流的方法大都基于深度学习&＃xff0c;可以分为两类&＃xff1a;端到端&＃xff08;End-to-end&＃xff09;的方法和深度展开式&＃xff08;Deep Unfolding&＃xff09;的方法。端到端的方法直接采用一个深度学习模型&＃xff0c;去拟合一个从 2D 快照压缩估计图到 3D 高光谱数据的映射。这种方法比较暴力&＃xff0c;确实可解释性。深度展开式方法将神经网络嵌入到最大后验概率&＃xff08;Maximum A Posteriori&＃xff0c;MAP&＃xff09;模型中来迭代地重建出高光谱图像&＃xff0c;能更好地和光学硬件系统适配。因此&＃xff0c;本文主要研究深度展开式算法。当前这些方法主要有两大问题&＃xff1a;

当前的深度展开式框架大都没有从 CASSI 中估计出信息参数用于引导后续的迭代&＃xff0c;而是直接简单地将这些所需要的参数设置为常数或者可学习参数。这就导致后续的迭代学习缺乏蕴含 CASSI 退化模式和病态度信息指导。
当前的 Transformer 中全局的 Transformer 计算复杂度与输入的图像尺寸的平方成正比&＃xff0c;导致其计算开销非常大。而局部 Transformer 的感受野又受限于位置固定的小窗口当中&＃xff0c;一些高度相关的 token 之间无法match。

为了解决上述两个问题&＃xff0c;我们提出了首个深度展开式的Transformer。我们贡献可以概括为&＃xff1a;

首先&＃xff0c;我们推导出了一个能够感知 CASSI 退化模式与病态度的深度展开框架&＃xff0c;它从压缩估计图和编码掩膜中估计出信息参数来引导后续的迭代学习。
接着&＃xff0c;我们设计了一个能够同时捕获局部和全局依赖关系的 Transformer 并且计算复杂度相较于全局的Transformer而言&＃xff0c;大幅减低。
最终&＃xff0c;我们将我们设计的 Transformer 嵌入到我们推导的深度展开框架中来极大提升光谱图像重建的效果。我们的算法在使用更低参数量和更少计算量的前提之下&＃xff0c;性能大幅度地超过了前人的方法。

2. 方法

2.1 CASSI 压缩退化的数学模型

我们定义向量化后的压缩估计图为 y , 被偏移后的输入数据为 x&＃xff0c; 传感矩阵为 φ &＃xff0c;则 CASSI 的退化数学模型为

其中的 n 表示成像时产生的随机噪声&＃xff0c;同样地&＃xff0c;它也经过了向量化。

2.2 退化可感知的深度展开框架

图2 退化可感知的深度展开式数学框架

我们首先推导出一个 CASSI 退化模式和病态度可感知的深度展开框架&＃xff0c;Degradation-Aware Unfolding Framework &＃xff08;DAUF&＃xff09;&＃xff0c;如图 2 所示。它以最大后验概率为理论基础来进行推导。结合公式&＃xff08;1&＃xff09;&＃xff0c;我们可以得到 CASSI 的最大后验概率能量优化函数为&＃xff1a;

引入辅助变量 z 之后&＃xff0c;我们可以得到

为了得到展开式的推导&＃xff0c;同时使迭代过程更加简单&＃xff0c;能够更快地收敛&＃xff0c;我们对公式&＃xff08;3&＃xff09;采用 Half-Quadratic Splitting &＃xff08;HQS&＃xff09;算法进行展开&＃xff0c;得到&＃xff1a;

我们对公式&＃xff08;4&＃xff09;中的 x 和 z 进行解耦&＃xff0c;从而得到两个迭代的子问题如下&＃xff1a;

其中的 x 项有一个闭式解&＃xff1a;

其中 I 是恒等矩阵&＃xff0c;上述闭式解涉及到矩阵求逆&＃xff0c;对计算机不友好。为简化矩阵求逆运算&＃xff0c;我们做了以下推导&＃xff1a;

将公式&＃xff08;7&＃xff09;插入到公式&＃xff08;6&＃xff09;&＃xff0c;我们可以得到&＃xff1a;

2.3 半交互式 Transformer

图3 半交互式 Transformer 的网络结构图

2.3.1 网络整体结构

我们半交互式 Transformer &＃xff08;Half-Shuffle Transformer&＃xff0c;HST&＃xff09;的整体结构如图3 (a) 所示&＃xff0c;采用一个 U 形网络&＃xff0c;包含一个 Encoder&＃xff0c;Bottleneck&＃xff0c;Decoder。其中基本单元是 Half-Shuffle Attention Block &＃xff08;HSAB&＃xff09;。HSAB中最重要的模块是 Half-Shuffle Multi-head Self-Attention &＃xff08;HS-MSA&＃xff09;。

2.3.2 Half-Shuffle Multi-head Self-Attention

3. 实验

3.1 定量实验对比

表1 定量实验对比图

定量实验对比如表 1 所示&＃xff0c;我们的 DAUHST 以更低的计算量和参数量显著超越了之前 16 种 state-of-the-art 方法。我们的方法比先前最好的方法 End-to-end 方法 CST-L 和 Deep Unfolding 方法 BIRNAT 要分别高出 2.24 和 0.78 dB。

图4 不同 Deep Unfolding 方法的 PSNR - FLOPS 对比图

相较于先前的 Deep Unfolding 方法&＃xff0c;我们绘制了 PSNR - FLOPS 坐标图比较 DAUHST 和其他 Deep Unfolding 方法的性价比。如图4所示。我们的方法在消耗相同计算量的情况下比先前方法要高出 4 dB。

3.2 定性实验对比

图5 仿真数据集上的视觉对比结果

在仿真数据集上的定性结果对比如图5所示。左上角是RGB图像和快照估计图&＃xff08;Measurement&＃xff09;。下方四行图像是不同方法重建的四个波长下的高光谱图像。右上角的图像是下方图像中黄色框框内的放大图。从重建的高光谱图像来看&＃xff0c;我们的方法能更好地恢复出细节内容和纹理结构&＃xff0c;请注意对比小立方块区域。a 和 b 曲线对应着 RGB 图像的两个绿色框的区域的光谱强度曲线&＃xff0c;可以看出&＃xff0c;我们的 DAUHST 与 Ground Truth 的曲线最为接近。

图6 真实数据集上的视觉对比图

图6 展示的是各类方法在真实数据集上的对比。可以看出只有我们的方法能够在各种波长的光谱上稳定地重建出小花并同时抑制噪声的生成。

4. 总结

本文是我们 SCI 系列代表作的第五个&＃xff0c;也是 NeurIPS 上边首次有 SCI 重建的工作。SCI 重建作为新兴的 low-level 方法这两年迅猛发展&＃xff0c;希望能够看到有更多的人能够加入的这个 topic 的研究&＃xff0c;毕竟新的领域有更多出成果的机会。另附上我们先前在 CVPR 2022 和 ECCV 2022 上的两个工作 MST 和 CST 的解读链接&＃xff1a;

ECCV 2022 | 清华等提出CST&＃xff1a;首个嵌入光谱稀疏性的Transformer

CVPR 2022 & NTIRE 2022冠军方案&＃xff01;MST&＃xff1a;多快好省的高光谱图像重建

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复&＃xff1a;CVPR2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;Transformer综述&＃xff0c;即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立扫描下方二维码&＃xff0c;或者添加微信&＃xff1a;CVer222&＃xff0c;即可添加CVer小助手微信&＃xff0c;便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖&＃xff1a;目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称&＃xff08;如目标检测或者Transformer&＃43;上海&＃43;上交&＃43;卡卡&＃xff09;&＃xff0c;根据格式备注&＃xff0c;可更快被通过且邀请进群▲扫码或加微信号: CVer222&＃xff0c;进交流群 CVer学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;▲扫码进群 ▲点击上方卡片&＃xff0c;关注CVer公众号

整理不易&＃xff0c;请点赞和在看

推荐阅读

int
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
int
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
int
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
int
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
ip
LeetCode 1736: 替换隐藏数字获取最晚时间

本文详细介绍了如何通过替换隐藏数字来获取最晚时间，适用于 LeetCode 1736 题目。 ... [详细]

蜡笔小新 2024-11-14 18:45:57
int
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
int
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
int
解决Jenkins远程触发器问题

本文介绍了如何通过安装Build Token Root插件并配置身份验证令牌来解决Jenkins远程触发器无法正常工作的问题。 ... [详细]

蜡笔小新 2024-11-12 16:00:13
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
install
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
int
Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？

Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？ ... [详细]

蜡笔小新 2024-11-08 09:25:06
ip
SSL 错误：目标主机名与备用证书主题名称不匹配

在使用 `git clone` 命令时，常见的 SSL 错误表现为：无法访问指定的 HTTPS 地址（如 `https://ip_or_domain/xxxx.git`），原因是目标主机名与备用证书主题名称不匹配。这通常是因为服务器的 SSL 证书配置不正确或客户端的证书验证设置有问题。建议检查服务器的 SSL 证书配置，确保其包含正确的主机名，并确认客户端的证书信任库已更新。此外，可以通过临时禁用 SSL 验证来排查问题，但请注意这会降低安全性。 ... [详细]

蜡笔小新 2024-11-07 22:49:18
int
HTML 图片上传至七牛云存储，实现高效内容管理

通过使用七牛云存储服务，本文详细介绍了如何将本地图片高效上传至云端，并实现了内容的便捷管理。借助七牛云的 Python SDK，文章提供了从认证到文件上传的具体代码示例，包括导入必要的库、生成上传凭证以及处理文件路径等关键步骤。此外，还探讨了如何利用七牛云的 URL 安全编码功能，确保数据传输的安全性和可靠性。 ... [详细]

蜡笔小新 2024-11-06 12:32:43

-林之涵_396

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章